home *** CD-ROM | disk | FTP | other *** search
/ Collection of Tools & Utilities / Collection of Tools and Utilities.iso / tex / kjdc9308.zip / kanjidic.doc < prev    next >
Text File  |  1993-08-26  |  13KB  |  310 lines

  1. K A N J I D I C
  2. ===============
  3.  
  4. Introduction
  5. ------------
  6.  
  7. Kanjidic contains comprehensive information about the Japanese kanji
  8. characters. It is a text file currently 6,353 lines long,
  9. with one line for each kanji in the two levels of the JIS X 0208-1983
  10. set. (For information about this set, see the Appendix 1.) 
  11. Eventually it will be upgraded to the JIS X 0208-1990 version.
  12.  
  13. The file contains a mixture of ASCII characters and kana/kanji encoded using
  14. the EUC (Extended Unix Code) coding.
  15.  
  16. Contents & Format
  17. -----------------
  18.  
  19. The first part of each line is of a fixed format, indicating which
  20. character the line is for, while the rest is more free-format.
  21.  
  22. The first two bytes are the kanji itself.  There is then a space, the 4-byte 
  23. ASCII representation of the hexadecimal coding of the two-byte JIS encoding, 
  24. and another space.
  25.  
  26. The rest of the line is composed of a combination of three kinds of fields
  27. (which may be in any order and interspersed):
  28.  
  29.    1) Readings (with '-' to indicate prefixes/suffixes, and '.' to separate 
  30.       a reading from its okurigana).  ON-yomi are in katakana, while KUN-yomi 
  31.       are in hiragana.
  32.  
  33.    2) English translations and/or notes. Each such field begins with an
  34.       open brace '{' and ends at the next close brace '}'.
  35.  
  36.    3) Information fields, beginning with an identifying letter and ending 
  37.       with a space.  There are currently a variety of predefined fields
  38.       (program using kanjidic should not make any assumptions about the
  39.       presence or absence of any of these fields, as kanjidic
  40.       is certain to be extended in the future):
  41.  
  42.     B<num>    -- The radical (Bushu) number.  There is at least one per line.
  43.              As far as possible, this is the radical number used in
  44.              Nelson. Where the classical or historical radical number 
  45.              differs from this, it is present as a separate C<num> entry.
  46.              There should be one Bnnn only.
  47.  
  48.     C<num>    -- The historical or classical radical number (where this
  49.              differs from the B<num> entry.) There may be zero,
  50.              one or several of these.
  51.  
  52.     F<num>    -- The frequency-of-use ranking.  At most one per line.
  53.              The 2,135 most-used characters have a ranking.
  54.              Those characters that lack this field are not ranked.
  55.  
  56.     G<num>    -- The Jouyou grade level.  At most one per line.
  57.              G1 through G6 indicate Joyo grades 1-6.
  58.              G8 indicates general-use characters.
  59.              G9 indicates Jinmeiyou ("for use in names") characters.
  60.              If not present, it is a kanji outside these categories.
  61.  
  62.     H<num>    -- The index number in Jack Halpern's dictionary.
  63.              At most one allowed per line. If not preset, the
  64.              character is not in Halpern.
  65.  
  66.     N<num>    -- The index number in the Nelson dictionary. At most
  67.              one allowed per line. If not present, the character
  68.               is not in Nelson, or is considered to be a non-standard
  69.                      version, in which case there will be {see Nnnn} appended.
  70.  
  71.         P<code>   -- The SK*P pattern code (similar to Halpern). The <code>
  72.              is of the form "P<num>-<num>-<num>".  See Halpern for
  73.              a description of his SKIP pattern code, which is
  74.              similar to this. A brief summary of the method is in
  75.                      Appendix 3
  76.  
  77.              [NB: the Pn-n-n codes have been removed from
  78.              kanjidic as of 4 August 1993. The removable has
  79.              taken place to avoid violation of Mr Halpern's
  80.              copyright of this list of codes.]
  81.  
  82.         S<num>    -- The stroke count.  At least one per line.  If more than
  83.              one, the first is considered the accepted count, while
  84.              subsequent ones are common miscounts.
  85.  
  86.     U<hexnum> -  Exactly one per line. The Unicode encoding of the kanji.
  87.                      See Appendix 2 for futher information on this.
  88.  
  89.     Qnnnn.n   -  The "Four Corner" code for that kanji. This is a rather 
  90.              old code used in China and Japan. In some cases there
  91.              are two of these codes, as it is a little ambiguous.
  92.  
  93.     MNnnnnnnn and MPnn.nnnn The index number and volume.page respectively
  94.              of the kanji in the 13-volume Morohashi "DaiKanWaJiten.
  95.  
  96.     Ennnn     -  The index number used in "A Guide To Remembering
  97.                  Japanese Characters" by Kenneth G.  Henshall. There
  98.              are 1945 kanji with these numbers (i.e. the Jouyou
  99.              subset.)
  100.  
  101.     Yxxxxx    -  The "PinYin" of each kanji, i.e. the (Mandarin or
  102.              Beijing) Chinese romanization. About 6,000 of the
  103.              kanji have these. Obviously the native Japanese
  104.              kokuji do not have PinYin.
  105.  
  106.     (Many of the kanji also have indices for the Spahn & Hadamitsky
  107.     dictionary. At present they are encoded in the "meaning" field,
  108.     but will shortly be moved to the index region of the records.)
  109.  
  110. If the final field of a line is not an English field, there is a final space.
  111. Each reading and info field is therefore bracketed by a space (which makes
  112. it convenient for grep-based searches).
  113.  
  114. As far as possible all entries will have their yomikata and readings
  115. attached, even if they are a recognized variant of another kanji. This is
  116. to facilitate electronic searches using these fields as keys, and should
  117. not be taken as a recommendation to use such obscure kanji.
  118.  
  119. Usage
  120. -----
  121.  
  122. Kanjidic is used now to build the "kinfo.dat" file which is used by JDIC 
  123. and JREADER, and by Stephen Chung's JWP. "kinfo.dat" contains the identical 
  124. information, but in a compressed form and in a structure suitable for fast 
  125. indexed access. 
  126.  
  127. Kanjidic is also used in the XJDIC program.
  128.  
  129. Support
  130. -------
  131.  
  132. Kanjidic was originally compiled, and is maintained by:
  133.  
  134.     Jim Breen
  135.     (jwb@capek.rdt.monash.edu.au)
  136.     Department of Robotics & Digital Technology
  137.     Monash University, Victoria, Australia
  138.  
  139. If you have changes, send diffs [not complete files] with corrections to him.
  140.  
  141.  
  142. Too Much Information?
  143. ---------------------
  144.  
  145. Kanjidic is now rather large, and has information in it which is not much
  146. use for people who are not studying and researching Japanese orthography.
  147. It is still appropriate to maintain it as a useful compendium of such
  148. information in the Public Domain.
  149.  
  150. For people who only wish to use a subset of the information in kanjidic,
  151. there is a program "kdfilt.c", also available as kdfilt.exe for MS-DOS,
  152. which will strip out unwanted fields.
  153.  
  154. History (comments by Jim Breen)
  155. -------
  156.  
  157. Kanjidic began as two files: jis1detl.lst and jis2detl.lst.
  158.  
  159. The first file was compiled initially from the file "kinfo.dat" supplied by 
  160. Stephen Chung, who in turn compiled his file from a file prepared by Mike 
  161. Erickson. I originally added about 1900 "meanings" by James Heisig keyed in by 
  162. Kevin Moore from the book "Remembering The Kanji". I later added the ex-Nelson 
  163. meanings from Rik Smoody's files, compiled when he was working for Sony in
  164. Japan. 
  165.  
  166. The second file was compiled from a complete JIS2 list with Bushu and stroke 
  167. counts kindly supplied to me by Jon Crossley, to which I added Nelson numbers, 
  168. yomikata and meanings extracted from a dictionary file prepared by Rik Smoody 
  169. at Sony. 
  170.  
  171. The file is being continually updated with extra and corrected yomikata, 
  172. Nelson nos, meanings, etc. Theresa Martin has been a great assistance with 
  173. this, particularly with tracking down and correcting many mistranscribed 
  174. yomikata (the old zu/dzu, oo/ou, ji/dji, etc. problems). 
  175.  
  176. Jeffrey Friedl did a major overhaul in September-October 1992, in which he
  177. added frequency rankings, Halpern codes, SK*P patterns, updated the grading 
  178. ("G" fields) to reflect the modern Jouyou lists, corrected radical numbers, 
  179. corrected stroke counts and readings to fall in line with modern usage.
  180.  
  181. Magnus Halldorsson corrected some erroneous Halpern numbers, and provided
  182. them for a lot of the radicals.
  183.  
  184. Lee Collins provided the Unicode mappings (see appendix 2)
  185.  
  186. Iain Sinclair has provided the yomikata, meanings and S&H indices of many of
  187. the obscure JIS2 kanji.
  188.  
  189. Christian Wittern, a Sinologist working at Kyouto U, sent me a monster file
  190. prepared and released by Dr Urs App from Hanazono University. From this
  191. I have extracted the "Four Corner", Morohashi and PinYin information. I am 
  192. very grateful for this significant contribution.
  193.  
  194. Alfredo Pinochet supplied all the Henshall numbers.
  195.  
  196. In July 1993, aft